近日,88038威尼斯农业人工智能研究院具身智能课题组在计算机与农林科学领域国际著名期刊《Computers and Electronics in Agriculture》发表题为“Accurate localization of fruit targets and picking points with multi-dimensional attention and dynamic upsampling”(基于多维注意力和动态上采样的果实目标和采摘点精确定位)研究论文。该期刊是中国科学院一区Top期刊,是全球唯一在“农业综合”与“计算机:跨学科应用”双领域登顶一区的SCI期刊,2025年影响因子8.9,在“农业综合”学科的89本期刊中排名第1。计算机与信息学院博士生黄艺坤为第一作者,李景虎教授和陈日清教授为共同通信作者。

论文封面
该研究针对复杂农业环境中果实形态多变、采摘点区域微小、遮挡及背景干扰强等挑战,研究团队提出基于多维注意力与动态上采样的MDAD-YOLO 检测模型。该模型在特征增强阶段耦合区域感受野注意力与通道—空间联合注意力,提升对果实及采摘点的跨尺度/跨通道感知;在颈部结构中引入坐标注意力,提高果梗等细粒度结构的空间定位精度,并采用动态像素重组替代传统插值,上采样过程中更好地保留细节。最后通过级联自适应细粒度通道注意与位置敏感注意,实现通道依赖关系的多层级建模,并协同强化空间上下文表征。实验在辣椒和茄子跨数据集中克服了多种果实姿态和不同光照影响,在性能和精度上取得了SOTA。

MDAD-YOLO在辣椒和茄子多个数据集中实现了果实和采摘点精准定位
这项研究成果为实现高效、精准的果蔬自动化采摘提供了核心的视觉感知方案,有望解决农业生产中劳动力短缺和成本上升的痛点。未来,该技术可被集成到农业机器人或智能采摘装备中,直接应用于温室、果园等复杂环境,推动智慧农业的落地与发展。

第一作者
黄艺坤,88038威尼斯计算机与信息学院2023级博士生,主要研究方向为具身智能、计算机视觉等。以第一作者在《Computers and Electronics in Agriculture》《Frontier in Plant Science》等期刊中发表多篇学术论文。
